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Для оцінювання щільності статистичного розподілу часто застосовують підхід максимальної 
ентропії, рівносильний підходу максимальної правдоподібності. Однак на малих наборах вхідних 
даних такий підхід дає надлишковість оцінки. Надлишковість оцінки можна усувати такими 
методами згладження як регуляризація чи переформулювання обмежень. 
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Вступ 

Для широкого класу методів максимізації ентропії та вірогідності розвивається 
єдиний підхід, що гарантує їхню збіжність 1 статистичну ефективність ||; 21. 
Наприклад, можна обгрунтувати статистичну ефективність відомих методів 
регуляризації з цільовими функціями у стандартних нормах, а також зі спеціальними 
цільовими функціями, які мають кращі статистичні властивості, використовуючи 
інформацію про структуру простору ознак, про зсув отримання вибірки, про інші 
способи оцінювання щільності |З; 4). Крім того, для розв'язання загальної задачі про 
максимальну ентропію (максент) можна запропонувати нові алгоритми й довести 
їхню збіжність, узагальнюючи методи, основані на теорії компактності, 
інформаційній геометрії та оптимізації |5- 71. 

Постановка проблеми 

Пропоновані методи Й алгоритми максимізації ентропії та вірогідності можна 
застосовувати до моделювання поширення біологічних видів |3|. Інтерес мають рідкісні 
види, характерні малою кількістю наявних вибірок даних, причому зсунених до 
місцевостей, де ці дані легше збирати, - доріг, міст, аеропортів, водних шляхів |4). 
Такий зсув можна оцінювати за множиною відвіданих місцевостей. Незважаючи на 
малу кількість вибірок для даного виду, часто є доступ до баз даних про численні 
споріднені види |9; 10). Тоді бажано використовувати методи множинного оцінювання, 
щоб поліпшувати якість прогнозування для всіх споріднених видів (б; 7; 10). 

Наприклад, при моделюванні поширення змієїда (хижого птаха родини 
яструбових, який зустрічається у Канівському природному заповіднику Київського 
національного університету імені Тараса Шевченка і включається до Червоної 
книги) за допомогою пікселів на мапі ШПівденно-Західної Євразії можна 
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використовувати обмеження, основане на такій ознаці, як щорічні (атмосферні) 
опади: обсяг середніх щорічних опадів, що сприяє поширенню змієїда, має рівнятися 
середнім спостережуваним опадам. 

Аналіз останніх досліджень і публікацій 

Принцип максимальної ентропії походить від статистичної механіки. 
Запропонований у статистичній механіці підхід оцінювання щільності |11-13| 
поширився на інші галузі, зокрема, на комп'ютерну обробку природної мови |14; 
15). Вважається, що для шуканої щільності розподілу задано набір відомих 
обмежень, які часто основані на множині вибірок шуканого розподілу 1 виражені 
через множину ознак (функцій, значеннями яких є дійсні числа), визначених на 
просторі вибірок (16). Як правило, обмеження вимагають відповідності сподіваної 
ознаки та її емпіричного середнього. 

Мета дослідження 

Висвітлити оптимізаційні питання, що виникають при машинному 
моделюванні поширення видів, тобто оцінюванні щільності виду за пікселями на 
мапі. Ознаками є прості функції змінних довкілля, а обмеження виходять із частоти 
спостережень видів. 

Виклад основного матеріалу 

Для визначення розподілу, що має максимальну ентропію, можна застосувати 
метод множників Лагранжа. Відповідно до умов Каруша-Куна-Такера (Каги5р-- 
Киро-ТисКег) цей розподіл є розподілом з максимальною вірогідністю з класу 
експоненційних розподілів, де ознаки відіграють роль достатніх статистик. У 
статистичній механіці такі розподіли називають розподілами Гіббса (С1Ьб5). 

Вивчаючи властивості газів як систем, що складаються з великої кількості 
молекул, Людвіг Больцман (1844-1906, Австро-Угорщина) також відповідав на 
фундаментальне питання залежності макроскопічного стану (макростану) системи 
від її мікроскопічних властивостей. Макростан включає такі властивості системи як 
її об'єм, загальне число молекул, загальну енергію, а мікростан - такі властивості 
окремих молекул системи як їхні швидкості та положення. 

Для простоти Больцман припустив, що молекули газу змінюють свій стан (свої 
координати) К дискретно, тобто їхні швидкості та положення є дискретними, 
набуваючи значення 1,2,...,К . Енергія - це ключова характеристика як макростану, 
так і мікростану. Енергія кожної молекули - це сума кінетичної енергії, що залежить 
лише від швидкості молекули, та потенційної енергії, що залежить лише від 
положення молекули в силовому полі. Нехай дискретні стани є малими настільки, 
що молекули однакового стану К мають (майже) однакову енергію Е,, але водночас 


ці стани є великими настільки, що багато молекул має однаковий стан. Тоді 
мікростан системи задається вектором, елементи якого відповідають станам усіх її 
молекул, а макростан визначається гістограмою числа М, молекул за кожним 


станом К. Таким чином, для визначення макростану достатньо обчислювати 
найвірогіднішу гістограму. 
Застосовуючи принцип байдужості, Больцман вважав, що всі мікростани є 


рівноймовірними. Тому найвірогіднішу гістограму можна отримати за найбільшим числом 
К 

мікростанів. Якщо загальне число молекул становить М - 5)М,, то загальне число 
ке! 


способів їхнього розподілу за станами визначається мультиноміальним коефіцієнтом 


О В.М. Горбачук, М.С. Дунаєвський, А.А. Сирку, С.-Б. Сулейманов 107 


155 1561-5359. Штучний інтелект, 2017, Хо 3-4 


М! 
сроонмЮ му ММ кі Ф 
який слід максимізувати при законі збереження загальної енергії системи 
К 
Е - МВ . (2) 


Для максимізації функції (1) зручніше користуватися її логарифмом, який при 
множенні на константу Больцмана дає термодинамічну ентропію. Для цього 
логарифма скористаємося наближенням Стірлінга (5йтіпе) 


| К 
мо мк 
ММ. Мк! Ккаі МІ 


й Му , 
Звернімо увагу, що тая ру - це частота стану К. Тоді задача Больцмана 


максимізації функції (1) при обмеженні (2) зводиться до задачі максимізації по 
р Ро»--» Рк Функції термодинамічної ентропії 


Д. 1 
Дрь Разез Рк)7| 2 Му 0-- (3) 
ке! Ру 
при обмеженні для середньої енергії молекули 
Е Кк М, К 
з, ЗВро 5 РЕВ: (9 


М ка М ка 
Звідси, використовуючи метод множників Лагранжа, знаходимо 
ЛЕ, 
Ре тем бу 
де 2 - множник Лагранжа, що відповідає обмеженню (4). Знайдений вираз для 
розподілу Больцмана може стати основою для вивчення різних властивостей газів, 
наприклад, розподілу щільності газу у гравітаційному полі. 

Інтерпретуючи методологію Больцмана на мові теорії інформації (171), можна 
розв'язувати загальніші проблеми: «статистична механіка може стати лише окремим 
прикладом статистичних рішень» (11; 121. Замінюючи термодинамічну ентропію на 
теоретико-інформаційну ентропію, можна вимірювати нашу невизначеність щодо 
даної системи. Коли наші знання щодо даної системи виражаються обмеженням (4), 
то серед усіх розподілів слід обрати найбільш незалежний від пропущеної в цьому 
обмеженні інформації - розподіл з найбільшою теоретико-інформаційною ентропією 


Кк 
Н(р)е--У ріпрі, 
ха 


пов'язану з функцією (3). Розподілу Больцмана задовольняє гранична межа 
перехідної ймовірності у випадковому локальному пошуку | 18). 

Принцип максимальної ентропії можна вважати узагальненням принципу 
байдужості. У статистичних рішеннях цей принцип дозволяє знаходити розподіл, 
який максимізує ентропію при даних обмеженнях. У задачі Больцмана єдина ознака 
- це енергія, а розподіл Больцмана - це випадок розподілу Гіббса, виокремлений 


однією ознакою. Якщо х - довільний стан у просторі Х, /(х) - вектор значень 
ознак, які характеризують цей стан, то результуючий розподіл Гіббса має вид 


рід ме 19), 
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де А - вектор множників Лагранжа, що відповідають обмеженням. 
Теоретико-інформаційне обгрунтування |11; 12) можна узагальнювати, 
припускаючи наявність певного (початкового) розподілу 40 За відсутності будь-яких 
даних | 19; 20). Тоді можна обирати найближчий до 4 розподіл серед усіх розподілів, 
які задовольняють заданим обмеженням. Міра близькості - це відносна ентропія 
р/р о) - У, родіо РОЗ, 
хеЕХ 40 (9) 
яку називають дивергенцією (4імегеепсе) Кульбака-Лейблера (КийРБаск- І еїНіег); 
вона вимірює обсяг інформації про шуканий результат, який можна дістати при 
знанні р замість 40. Якщо 4) - рівномірний розподіл, то критерій мінімальної 


відносної ентропії замінюватиметься критерієм з максимальної ентропії, а 
результуючі розподіли Гіббса матимуть вигляд 
рО9 я ау є" 19, 

Слід пояснити, як застосовувати до задачі оцінювання щільності такі 
теоретико-інформаційні величини, як ентропія чи відносна ентропія. Хоча багато 
досліджень даної задачі має теоретико-інформаційне обгрунтування |21|, Є інші 
теоретичні обгрунтування цієї задачі - теорія великих відхилень, аксіоматична 
теорія, теорія ігор. 

Теорія великих відхилень вивчає ймовірності маловірогідних подій, які у 
статистичній механіці відповідають макростанам (гістограмам) з ентропією, нижчою 
за максимальну. Наприклад, у задачі Больцмана число реалізацій емпіричного 
розподілу р для М частинок становить 


М! 
СОМ ММ) я - М НСрукой)), (з) 
ММ Мк! 
де о(1)-»0 при М-»с, Н(р) - ентропія розподілу р. Отже, розподіл р з 
М(НСручойу)) 


максимальною ентропією реалізується е макростанами. Порівняємо це 
число і загальне число реалізацій з ентропією, нижчою за максимальну, тобто з 
ентропією, нижчою за Н(р) - є, де 0 « є - задана величина. 


Якщо Н(р)« Н(р)-є, то в силу залежності (5) число реалізацій довільної 
гістограми р не перевищує е УН(Р-єтой)), писло таких гістограм обмежене зверху 


загальним числом (М --1)К гістограм для М частинок, кожна з яких перебуває в 


одному з К станів. Отже, загальне число реалізацій з ентропією, нижчою за 


К МН (Р)-ечой)) 


Н(р)- є, не перевищує величини (М --1) , яка при досить великих 


МН (руно) реалізацій роподілу р. Тому 


значеннях М експоненційно менша числа е 
серед усіх емпіричних розподілів, що задовольняють обмеженням, лише 
експоненційно мала частка не потрапляє у довільно малий окіл розподілу з 
максимальною ентропією. 

Вищезазначені міркування припускають, що всі реалізації розподілу є 
рівноймовірними а ргіогі. Коли кожна молекула перебуває у своєму стані відповідо 


до деякого апріорного розподілу 40, То ентропію Н(р) слід замінювати від'ємною 


відносною ентропією -- Д(р || 40): 
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Такі міркування узагальнює теорема Санова про те, що емпіричний розподіл 
при обмеженнях наближує розподіл з максимальною ентропією |22|. Цю теорему 
суттєво узагальнюють умовні граничні теореми |23-25|. Наприклад, коли обмеження 
задають опуклу множину розподілів ймовірності, а вибірки належать незалежним 
реалізаціям розподілу 4о, яке не задовольняє даним обмеженням, то умовний 


розподіл першої вибірки збігається до розподілу р з максимальною ентропією при 
умові, що емпіричний розподіл р задовольняє цим обмеженням |24). Якщо теорема 


Санова стосується емпіричного розподілу для М частинок, то теорема Чіжара 
стосується граничного розподілу для єдиної частинки. 

Теорема Санова Й умовні граничні теореми характеризують властивості 
емпіричного стану системи при відомих умовах емпіричного стану системи за 
відомих умов 1 припущення, що цей стан генерується розподілом 40. Хоча ці 


теореми суворо обгрунтовують максент у статистичній механіці |26|, вони 
потребують розвитку у статистичних рішеннях для пошуку невідомого генеруючого 
розподілу з його початковою оцінкою 4). 


В аксіоматичних підходах до статистичних рішень висуваються такі вимоги 
(властивості) для конзистентного статистичного рішення, як інваріантність при 
змінах координат і збереження конзистентності при розкладах системи на окремі 
підсистеми |21; 27; 28). Доведено, що єдиний метод статистичних рішень, який 
задовольняє водночас всім цим вимогам, - це принцип максимальної ентропії. 

Проте не всі зазначені вимоги є самоочевидними: вимога мінімальних знань 
ПІ; 12|, вимога найменшої відносної ентропії |19|, вимоги властивостей 
конзистентності |21)| не пов'язані безпосередньо з оцінюванням щільності |29). 

Якість рішення часто оцінюється на контрольній множині, що складається з 
вибірок, відсутніх під час навчання. Частоти, спостережувані в контрольній 
множині, як правило, вважаються наближеннями деяких граничних ймовірностей, 
отримуваних при нескінченно великій кількості вибірок. Такі ймовірності 
вважаються істинними при частотній інтерпретації (30). 

У машинному навчанні та статистиці найпоширенішою альтернативою 
частотній інтерпретації є Байєсова інтерпретація, за якою існують апріорні 
ймовірності для всіх щільностей у даному класі. Після спостереження класична 
Байєсова оцінка дає апостеріорний розподіл для всіх можливих щільностей, 
оснований на апріорному розподілі та цьому спостереженні; некласична Байєсова 
оцінка дає єдину щільність, екстремальну для апостеріорного розподілу. 

Якщо частотна і Байєсова інтерпретації пов'язують задачі оцінювання 
щільності із спостережуваними вибірками безпосередньо (через частоти) чи 
опосередковано (через апостеріорний розподіл), то для принципу максимальної 
ентропії такий зв'язок потребує вивчення. Підхід теорії інформації, оснований на 
припущенні максимальної байдужості, дає класичну інтерпретацію ймовірностей 
І30| - інтерпретацію, яку застосовують для аналізу перестановок у колоді карт. 
Подібно до припущення Больцмана про рівноймовірність кожного макростану, 
кожна перестановка теж ваважається рівноймовірною. В аксіоматичних підходах 
принцип байдужості замінюється множиною вимог конзистентності, залишаючи 
відкритими питання отримання обмежень зі спостережень і генерування вибірок. 
Теоретико-ігровий підхід до обгрунтування принципу максимальної ентропії |31) 
пов'язує генерування вибірок з оцінюванням щільності. 
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Максент на мові теорії ігор нагадує класичне прийняття статистичних рішень -- 
рішень при оцінюванні щільності, коли один гравець (природа) обирає довільний 
розподіл 7, який задовольняє відомій (обом гравцям) множині обмежень, а інший 
гравець (особа, яка приймає рішення (ОПР)), не знаючи 7, обирає такий розподіл 4, 
який максимізує логарифм вірогідності відносно логарифма вірогідності при 
початковому розподілі 40, Задовольняючи множину обмежень. Отже, ОПР, 


намагаючись максимізувати свою цільову функцію 


г(с0940г) є Улбдім(9 - У лоді ц(9 є У лоді 109 


хеХ хеХ хеХ до (У) і 
обирає стратегію максиміну 
4 з аготах піп /(л(х),4(х)), (6) 
че0 ЛП 


де О - множина всіх щільностей на даному просторі вибірок, П - множина 


щільностей, які задовольняють даним обмеженням. Показано, що ця стратегія 
рівносильна щільності з мінімальною відносною ентропією (19) (щільності з 
максимальною ентропією |1 |; 12|) 
р - агетіп Д(р | 4о): 
реп 

Замість стратегії максиміну можна застосовувати стратегію максимального 

сподіваного значення 
4 з аготах Е реп / (2), 4(х))|; (7) 
4є0 

де Е,,еп ОЗНАачає спОДІіване (ехрестеай) значення за г є П ПО). 


Максимізацію вірогідності застосовують в оптимальному кодуванні й 
оптимальному виборі ігрових ставок (32). Якщо при застосуванні максимізації 
ентропії у теоретико-інформаційному та теоретико-іровому підходах висуваються 
бажані вимоги до шуканого розподілу, то при застосуванні максимізації вірогідності 
безпосередньо визначається критерій оптимальності відносно розподілу, який 
вважається істинним. Оскільки припущення про існування деякого єдиного 
істинного розподілу (який може бути граничним для нескінченно великої кількості 
вибірок) основано на понятті частоти, то стратегію максиміну при максимізації 
вірогідності можна вважати частотною інтерпретацією максимізації ентропії. 

За умовами Каруша-Куна- Такера розподіл, що має максимальну ентропію при 
обмеженнях-рівностях для емпіричних середніх, є розподілом з максимальною 
вірогідністю, який належить класу експоненційних розподілів. Отже, максимізація 
ентропії має альтернативну інтерпретацію як максимізація вірогідності |33; 34|. 
Однак максимізація вірогідності у класичній статистиці |35| відрізняється від 
максимізації ентропії: при максимізації вірогідності 4 істинний розподіл 
припускається належним до того класу розподілів, за якими максимізується 
вірогідність, а при максимізації ентропії подібного параметричного припущення 
немає; максимізація вірогідності є швидше оцінюванням параметрів з вивченням 
асимптотичних властивостей їхніх оцінок, ніж оцінюванням щільності, а 
максимізація ентропії є порівнянням швидше фактичних розподілів (розподілу з 
максимальною ентропією з істинним розподілом або його найкращим наближенням 
через розподіл Гіббса), ніж параметрів. 
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Важливе питання для будь-якого застосування принципу максимальної 
ентропії - це вибір множини обмежень. Хоча найпоширенішими є обмеження- 
рівності |21; 22; 291, відомі інші типи обмежень |1Ї; 12; 21; 36; 37). При пошуку 
розв'язку задачі (6) суттєво, щоб істинний розподіл належав множині П, яка не 
повинна бути занадто великою. З метою належного врахування множини П 
пропонується критерій (7) 1331. 

Коли обмеження-рівності основані на емпіричних середніх |39|, то максент 
може вести до надлишковості навчальних даних. Водночас для кожної змінної 
довкілля характерні порогові ознаки, які набувають бінарних значень (значення |, 
якщо змінна довкілля перевищує заданий поріг, і значення 0 в інших випадках). 
Коли кожна така змінна має безліч ознак, то розподіл з максимальною ентропією 
буде нетривіальним лише на значеннях, досягнутих вибірками. 

Висновки 

Загалом проблема максимізації вірогідності полягає у тому, що емпіричні 
середні ознак майже завжди не дорівнюватимуть їхнім істинним очікуванням, а тому 
цільовий розподіл не задовольнятиме обмеженням, які накладаються на результуюче 
обмеження. Крім того, проблема ускладнюється малими розмірами вибірок. При 
інтерпретації максимізації ентропії як максимізації вірогідності та звуженні шуканих 
розподілів до класу експоненційних розподілів можлива надлишковість оцінок. 
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КЕ5ОМЕ 


У.М. Сограспик, М.5. Ррипаєузкуїі, А.А. 5угКи, 5.-В. 5шіеітапоу 

Тре оріітігабоп і55цезя ої депз5ісу езїїтабіоп оп геа! даїа 

Оеп5іїу е5ітайоп гепаїп5 (0 Бе фе піа)ог ргобіет ої 5іайяйся апа 5іайяисаї 
Ісагпіпе, ШФеогу. І ргасіїсе, а Їеху 5атпріез аге об5егуеа, затрієез аге Ббіа5ей, апа а (агееї 
деп5Пу 15 геіаїед уп оїег ЧФепзійез. ТРіз5 іпдїсаїе5 (о Ше ітрогіапсе ої еббісіепі 
ииПлайоп ої (гаїпіпє Чака. Бог ехатріе, аг а з тай пипабег ої заппріе5 їп паці ітепзіопаї 
зрасе, опе 5роцід ц5е Ше іпіогттацоп ог ай! Фе Фітепзіопз5 ууріїе папу сІає5іса! ппеїродз 
доп'ї до її. ТПиз8, Ше пеїодз и5іпе а Іагее питрег ої дітепзіоп5 Їог 5таї! Чака 8еї58 аге 
пеедед. Ш (Бе Чака аге соПесівад млі а Біа5, Шеп апу Кпом/едєе абоиші аг біає моцід 
йтргоуе Фе еїісіепсу ої ргедіспоп. 

МУПреп 5еуега! Феп5ійез аге е5тагеа оп оуегіарред ог огаегеай 5еї8 ої да(а (зієпа!з8), 
Феп Ше 5ієпаї )оіпі Їог Шо5е деп5ійеє ууоцій йаргоує Ше ассигасу ої іпдаїмідцаї 
езптагез. Три5, Ше пиіпріе езтайоп (есппідицез Баіапсіпе іпатутдмаї іпїогтайоп абоці 
а 5ес ої ака апа Ше уоїпі іпогтайоп абоці 8еї5 ої Чаїа. 

МУБПе папу айібог5 Баме 5(идїе5 (Фе і55це5 оп пліахітігайоп ої епігору (ог 
аррійсайоп ої Сіббя Фі5(ібийоп5), Фе і55це5 оп сроїсе ої соп5ігаїпі5 арргоргіаїе їога 
агееі ді5іібийоп баз пеедеа а пему гебеагср. 

Ву Фе Каги5р-Кирп- ТисКег сопаїопе, а Фі5ітібийоп Бауїпє Фе тахіта! епітору 
ипдег едиайсу соп5ігаїпі5 Їог епкрігіса| ауегаєе5 15 (пе Фі5(ібийоп мулі птахіта! 
ПпКепрооа Беїопеїпя іо а сіа55 ої ехропеппа! дї5(ібийопе. 

Три58, ап епігору плзахітігайоп Па5 (фе айегпаїе іпіегргеїаїоп а5 а ПКеппооа 
тахітігайоп. Вис Ше ПпКеппооа пахітігайоп іп сіає5ісаї 5іай5ися 15 ФіНегепі їгот ап 
епігору плахітігацоп: ас Ше ПКепрооа плахітігацоп, а (гие Фі5(ібийоп 15 аз5итед (0 
реіопеє (о Ше сіаз5 ої дї5ітібийоп5 муБбеге Ше ПКеПпПрооа 15 плахіті7ей, ууПегеа5 аг ап 
епігору плзахітігацоп а 5іпиаг рагатеїгіс аз5итріоп 15 аб5епі; а Пкепрооа птахітігайоп 
15 гафег рагатеїег езййтайоп уліб 5киду ої а5угаріойс ргорегіїез Їог е5ійтаїез ап 
деп5Пу е5ітайоп, у/рБіїє ап епігору птахітігайоп 15 (пе согпрагі5оп ої гаШпег асіша! 
Фї5сібибоп5 Фап рагатегег5. 
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